Gene ontology là gì? Các bài nghiên cứu khoa học liên quan

Gene Ontology là hệ thống từ vựng chuẩn hóa dùng để mô tả chức năng gene, quá trình sinh học và vị trí tế bào của sản phẩm gene trên toàn hệ gen. GO được tổ chức theo ba miền chính—chức năng phân tử, quá trình sinh học và thành phần tế bào—dưới dạng đồ thị không chu trình có hướng (DAG) cho phép biểu diễn phân cấp linh hoạt.

Giới thiệu về Gene Ontology

Gene Ontology (GO) là một hệ thống chuẩn hóa được phát triển để mô tả chức năng của các gene và sản phẩm của chúng trên quy mô toàn hệ gen. Mục tiêu của GO là cung cấp một bộ từ vựng nhất quán để mô tả các thuộc tính của gene trong mọi sinh vật, từ vi khuẩn đến người. Điều này đặc biệt quan trọng trong bối cảnh dữ liệu genomics ngày càng phong phú và cần được chú thích theo cách có thể so sánh và phân tích xuyên loài.

GO được phát triển từ cuối những năm 1990 bởi Gene Ontology Consortium, bao gồm các nhóm nghiên cứu sinh học và tin sinh học từ nhiều trung tâm nghiên cứu quốc tế. Dự án được khởi đầu để giải quyết sự thiếu nhất quán trong mô tả chức năng gene giữa các cơ sở dữ liệu khác nhau, đặc biệt trong thời kỳ bùng nổ dữ liệu sequencing. Từ đó, GO trở thành một phần cốt lõi trong lĩnh vực phân tích dữ liệu omics và nghiên cứu sinh học hệ thống.

Một đặc điểm quan trọng của GO là khả năng mở rộng và liên kết giữa các đối tượng sinh học theo hệ thống phân cấp. Các khái niệm trong GO được trình bày dưới dạng Directed Acyclic Graph (DAG), trong đó mỗi node đại diện cho một thuật ngữ sinh học, còn các cạnh mô tả mối quan hệ phân cấp như "is_a" hoặc "part_of". Điều này cho phép mô tả một cách linh hoạt và giàu ngữ nghĩa hơn so với hệ thống phân loại dạng cây truyền thống.

Cấu trúc và ba lĩnh vực chính của GO

Gene Ontology được chia thành ba miền lớn (ontological domains), phản ánh ba khía cạnh cơ bản của sinh học phân tử:

  • Biological Process (BP): mô tả chuỗi các sự kiện sinh học có mục tiêu cụ thể, ví dụ như "DNA repair" hoặc "apoptotic process".
  • Molecular Function (MF): mô tả hoạt động phân tử cơ bản, như "ATP binding" hoặc "kinase activity".
  • Cellular Component (CC): mô tả vị trí trong tế bào nơi xảy ra chức năng hoặc quá trình, ví dụ "nucleus", "ribosome".

Mỗi miền có một hệ thống phân cấp riêng, độc lập nhưng có thể chồng lặp về ý nghĩa sinh học. Ví dụ, một protein kinase có thể được gán với các thuật ngữ thuộc cả MF (kinase activity), BP (signal transduction), và CC (plasma membrane).

Dữ liệu GO được tổ chức dưới dạng DAG, cho phép một thuật ngữ có nhiều cha (parent terms) và con (child terms), giúp biểu diễn tính phân cấp đồng thời vẫn linh hoạt trong mô tả chức năng phức tạp. Mối quan hệ giữa các thuật ngữ bao gồm:

  • is_a: biểu thị phân loại (ví dụ: "nuclear chromosome" is_a "chromosome")
  • part_of: biểu thị thành phần (ví dụ: "mitochondrial membrane" part_of "mitochondrion")
  • regulates: điều khiển tiến trình khác

Chú giải gene (Gene annotation) bằng GO

Annotation là quá trình gán các thuật ngữ GO cho gene hoặc sản phẩm gene. Các chú giải này được thực hiện dựa trên nhiều phương pháp, từ thực nghiệm đến tính toán. Điều này cho phép các nhà nghiên cứu hiểu rõ hơn về chức năng sinh học của các gene mới hoặc chưa rõ vai trò.

Các kiểu annotation phổ biến:

  • Experimental (EXP, IDA, IMP...): dựa trên bằng chứng thực nghiệm.
  • Computational (ISS, IEA...): dựa trên so sánh chuỗi hoặc mô hình máy học.
  • Author statement (TAS, NAS): trích dẫn từ tài liệu đã công bố.

Annotation thường được trình bày dưới dạng bảng, ví dụ:

Gene GO Term Aspect Evidence Code Source
TP53 apoptotic process BP IMP PubMed:123456
BRCA1 DNA repair BP IDA PubMed:789012

Chuẩn cú pháp và định dạng của file GO

Dữ liệu Gene Ontology được phát hành định kỳ dưới hai định dạng chính là OBO (Open Biomedical Ontologies) và OWL (Web Ontology Language). Mỗi định dạng phục vụ một mục tiêu khác nhau – OBO có cú pháp đơn giản, phù hợp cho xử lý nhanh; OWL hỗ trợ các tính năng logic phức tạp trong Semantic Web.

Ví dụ một đoạn dữ liệu định nghĩa một thuật ngữ GO theo cú pháp OBO:

[Term]
id: GO:0006915
name: apoptotic process
namespace: biological_process
def: "A programmed cell death process..." [GOC:mtg_apoptosis]
is_a: GO:0012501 ! programmed cell death

Trong đó, các khóa id, name, namespace, defis_a là tiêu chuẩn và giúp các công cụ tự động có thể đọc hiểu nội dung ontology. Các định dạng này được sử dụng trong các công cụ như OLS (Ontology Lookup Service) hoặc OBO Foundry.

Một điểm đáng chú ý là GO không đứng một mình mà liên kết với nhiều ontology khác trong lĩnh vực y sinh học như:

  • ChEBI (Chemical Entities of Biological Interest)
  • UBERON (Anatomy Ontology)
  • CL (Cell Ontology)

Việc liên kết này giúp mô tả toàn diện mối quan hệ giữa các phân tử, tế bào, cấu trúc giải phẫu và quá trình sinh học.

Công cụ và cơ sở dữ liệu GO

Để khai thác hiệu quả Gene Ontology, nhiều công cụ và cơ sở dữ liệu đã được phát triển nhằm hỗ trợ truy vấn, phân tích và trình bày dữ liệu liên quan đến GO. Các công cụ này phục vụ nhiều mục đích: từ tra cứu đơn giản, phân tích enrichment, đến tích hợp với pipeline sinh tin học toàn diện.

Một số nền tảng chính:

  • AmiGO: giao diện web chính thức của GO Consortium, cho phép tra cứu và duyệt ontology theo từng domain, xem chi tiết các annotation gene.
  • QuickGO: công cụ từ EMBL-EBI, cho phép tìm kiếm, lọc và tải dữ liệu annotation, có API mạnh mẽ cho tự động hóa.
  • GSEA/MSigDB: sử dụng GO để thực hiện phân tích enrichment trên các bộ gene biểu hiện.
  • DAVID: công cụ đa chức năng tích hợp nhiều loại phân tích, bao gồm enrichment theo GO, KEGG, Reactome.

Bên cạnh đó, nhiều hệ thống phân tích gene như Enrichr, Metascape, hoặc g:Profiler cũng hỗ trợ GO như một ontology nền cho chú giải chức năng. Các công cụ này thường tích hợp thêm visual hóa kết quả dưới dạng biểu đồ thanh, biểu đồ mạng, hoặc bản đồ nhiệt, giúp việc diễn giải kết quả trở nên trực quan hơn.

Ứng dụng trong phân tích sinh học - Gene set enrichment

Một ứng dụng nổi bật của Gene Ontology là phân tích enrichment, thường được dùng để kiểm tra xem liệu một danh sách gene có được biểu hiện đặc biệt (ví dụ từ RNA-seq hoặc microarray) có tập trung vào các quá trình sinh học cụ thể hay không. Phân tích này cung cấp cái nhìn hệ thống về chức năng gene và có thể định hướng nghiên cứu tiếp theo.

Phương pháp phổ biến:

  • Hypergeometric Test: so sánh tần suất xuất hiện của một GO term trong danh sách gene so với nền.
  • Gene Set Enrichment Analysis (GSEA): không cần ngưỡng chọn gene, dựa trên xếp hạng toàn bộ gene để phát hiện các bộ gene "giàu" trong dữ liệu.

Công thức tính p-value trong hypergeometric test:

P(X=k)=(Kk)(NKnk)(Nn) P(X = k) = \frac{{\binom{K}{k} \binom{N-K}{n-k}}}{{\binom{N}{n}}}

Trong đó:

  • NN: tổng số gene trong nền
  • KK: số gene trong nền có GO term cụ thể
  • nn: số gene trong tập cần phân tích
  • kk: số gene có GO term cụ thể trong tập n

Kết quả phân tích enrichment thường được trình bày dưới dạng bảng với các cột như GO term, số lượng gene, p-value, FDR (false discovery rate). Một số công cụ còn cung cấp biểu đồ volcano hoặc biểu đồ cây để mô tả mối liên hệ giữa các GO term enriched.

Thách thức và giới hạn hiện tại

Dù GO rất hữu ích, vẫn tồn tại một số hạn chế kỹ thuật và sinh học. Thứ nhất, không phải tất cả gene đều được chú giải đầy đủ – đặc biệt là ở các loài ít được nghiên cứu. Điều này tạo ra sự thiên lệch (bias) nghiêm trọng trong phân tích enrichment.

Thứ hai, các annotation tự động hoặc dựa trên homology có thể thiếu chính xác nếu không có xác thực thực nghiệm. Các vấn đề khác bao gồm:

  • Không đồng nhất về chất lượng annotation giữa các cơ sở dữ liệu.
  • Các GO term đôi khi trùng lặp hoặc mơ hồ về nghĩa sinh học.
  • Ontology thay đổi thường xuyên, ảnh hưởng đến reproducibility nếu không kiểm soát phiên bản.

Việc giải thích kết quả GO analysis đòi hỏi hiểu biết sâu về bối cảnh sinh học, nếu không dễ dẫn đến overinterpretation – ví dụ đưa ra giả định quá mức từ một vài GO term enriched có p-value nhỏ.

Phát triển và cải tiến GO

Gene Ontology Consortium thường xuyên cập nhật và mở rộng các thuật ngữ, mối quan hệ và annotation. Các sáng kiến mở rộng bao gồm:

  • Thêm các GO term mô tả chức năng phân tử mới (ví dụ: RNA editing, protein phase separation).
  • Liên kết với các ontology khác (ChEBI, CL, Uberon) để tạo mạng lưới liên ngành.
  • Ứng dụng học máy để phát hiện các mối quan hệ tiềm ẩn giữa GO term và dữ liệu sinh học mới.

Một ví dụ là dự án GO Annotation Quality, hướng đến việc chuẩn hóa chất lượng và tăng độ bao phủ của annotation. Ngoài ra, tích hợp dữ liệu từ scRNA-seq và proteomics đang giúp GO phản ánh đúng hơn thực tế sinh học đa chiều.

Case study: Ứng dụng GO trong nghiên cứu ung thư

Trong một nghiên cứu về ung thư vú, các nhà khoa học sử dụng RNA-seq để phân tích biểu hiện gene giữa mô ung thư và mô lành. Sau khi xác định các gene biểu hiện khác biệt, họ sử dụng phân tích GO enrichment để tìm hiểu quá trình sinh học liên quan.

Kết quả cho thấy các GO term như "cell cycle checkpoint", "DNA damage response", và "positive regulation of cell proliferation" được enriched mạnh mẽ. Điều này phù hợp với sinh lý bệnh học của ung thư – vốn gắn với rối loạn kiểm soát chu trình tế bào và tăng sinh mất kiểm soát.

Phân tích tiếp theo sử dụng dữ liệu từ cBioPortal và công cụ GSEA đã giúp xác định các con đường liên quan đến p53 và BRCA1, từ đó gợi ý hướng điều trị cá nhân hóa dựa trên đột biến và biểu hiện gene.

Tổng kết và định hướng tương lai

Gene Ontology là công cụ nền tảng trong phân tích dữ liệu sinh học hiện đại. Từ chú giải gene đến phân tích hệ thống, GO cho phép các nhà nghiên cứu tiếp cận dữ liệu phức tạp một cách logic và chuẩn hóa. Dù còn nhiều thách thức, GO vẫn là trụ cột trong lĩnh vực ontology sinh học.

Tương lai của GO sẽ gắn liền với công nghệ mới như trí tuệ nhân tạo, annotation tự động, và tích hợp dữ liệu omics toàn diện. Việc giữ tính mở, chuẩn hóa và cộng tác quốc tế sẽ tiếp tục là yếu tố quyết định thành công của hệ sinh thái GO.

Tài liệu tham khảo

  • The Gene Ontology Consortium. “The Gene Ontology resource: enriching a GOld mine.” Nucleic Acids Research, 2021. Nguồn
  • Carbon, S. et al. “Expansion of the Gene Ontology knowledgebase and resources.” Nucleic Acids Research, 2021. Nguồn
  • Mi, H., et al. “PANTHER version 16: a revised family classification, tree-based classification tool.” Nucleic Acids Research, 2019. Nguồn
  • Huang, D.W., Sherman, B.T., & Lempicki, R.A. “Systematic and integrative analysis of large gene lists using DAVID Bioinformatics Resources.” Nature Protocols, 2009. Nguồn
  • Ashburner, M. et al. “Gene ontology: tool for the unification of biology.” Nature Genetics, 2000. Nguồn
  • Subramanian, A. et al. “Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles.” PNAS, 2005. Nguồn

Các bài báo, nghiên cứu, công bố khoa học về chủ đề gene ontology:

Gene Ontology: tool for the unification of biology
Nature Genetics - Tập 25 Số 1 - Trang 25-29 - 2000
Gene ontology analysis for RNA-seq: accounting for selection bias
Genome Biology - Tập 11 Số 2 - Trang R14 - 2010
REVIGO Summarizes and Visualizes Long Lists of Gene Ontology Terms
PLoS ONE - Tập 6 Số 7 - Trang e21800
The Gene Ontology (GO) database and informatics resource
Nucleic Acids Research - Tập 32 Số 90001 - Trang 258D-261 - 2004
BiNGO: a Cytoscape plugin to assess overrepresentation of Gene Ontology categories in Biological Networks
Bioinformatics - Tập 21 Số 16 - Trang 3448-3449 - 2005
The Gene Ontology Resource: 20 years and still GOing strong
Nucleic Acids Research - Tập 47 Số D1 - Trang D330-D338 - 2019
Nguồn tài nguyên Gene Ontology: Làm giàu một mỏ vàng Dịch bởi AI
Nucleic Acids Research - Tập 49 Số D1 - Trang D325-D334 - 2021
Tóm tắtConsortium Gene Ontology (GOC) cung cấp nguồn tài nguyên toàn diện nhất hiện nay về tri thức có thể tính toán liên quan đến chức năng của gen và sản phẩm gen. Trong bài báo này, chúng tôi báo cáo những tiến bộ của consortium trong hai năm qua. Khung chú thích GO-CAM mới được cải tiến đáng kể, và chúng tôi đã chuẩn hóa mô hình với một lược đồ tính toán để kiể...... hiện toàn bộ
#Gene Ontology #GO-CAM #chú thích gen #hợp tác nghiên cứu #tăng trưởng dữ liệu
Creating the Gene Ontology Resource: Design and Implementation
Genome Research - Tập 11 Số 8 - Trang 1425-1433 - 2001
The exponential growth in the volume of accessible biological information has generated a confusion of voices surrounding the annotation of molecular information about genes and their products. The Gene Ontology (GO) project seeks to provide a set of structured vocabularies for specific biological domains that can be used to describe gene products in any organism. This work includes buildi...... hiện toàn bộ
Investigating semantic similarity measures across the Gene Ontology: the relationship between sequence and annotation
Bioinformatics (Oxford, England) - Tập 19 Số 10 - Trang 1275-1283 - 2003
Abstract Motivation: Many bioinformatics data resources not only hold data in the form of sequences, but also as annotation. In the majority of cases, annotation is written as scientific natural language: this is suitable for humans, but not particularly useful for machine processing. Ontologies offer a mechanism by which knowledge can be represented...... hiện toàn bộ
Tổng số: 271   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 10